استفاده از تکنیک خوشه بندی گوینده در تطبیق گوینده در سیستم بازشناسی گفتار
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق
- نویسنده اولدوز حضرتی یادکوری
- استاد راهنما محمد احدی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1386
چکیده
بطور کلی در بازشناسی گفتار، مدل وابسته به گوینده (sd) عملکرد بهتری نسبت به مدل ناوابسته به گوینده (si) در تشخیص گفتار یک گوینده خاص دارد. یکی از روش های عملی تر برای دستیابی به عملکردی نزدیک به سیستم sd استفاده از تکنیک های تطبیق گوینده است. خوشه بندی گوینده یکی از تکنیک های اصلی در تطبیق گوینده است. روش خوشه بندی می تواند به دلیل راحتی ترکیب با تکنیک های رایج تطبیق نظیر map و mllr مورد استفاده قرار بگیرد. در این پروژه، روشی مبتنی بر کرنل تنها در فاز خوشه بندی مورد استفاده قرار می گیرد. پیاده سازی این روش ساده و حجم محاسباتی مطلوبی دارد. ما این روش خوشه بندی بر مبنای توابع کرنل را که الهام گرفته از روش متداول k-means و بر مبنای ماشین های بردار پشتیبان تک کلاسی (ocsvm) است به عنوان مرحله پیش تطبیق قبل از تکنیک های رایج تطبیق نظیر map و mllr در تطبیق گوینده با نظارت سریع مورد استفاده قرار می دهیم. در بخشی از کار الگوریتم های خوشه بندی مختلفی نظیر خوشه بندی های جنسیت، خوشه بندی k-means،soft k-means و روشی بر مبنای بردار های پشتیبان تک کلاسی جهت تطبیق مورد استفاده قرار گرفته اند و با روش پیشنهادی به دقتی در حدود %3 بهتر از مدل مبنا با دقت %37/90 (دقت مدل si) دست یافتیم. در بخش دیگری از این پروژه استفاده از روش های خوشه بندی ذکر شده به عنوان یک مرحله پیشین در تطبیق به روش های map و mllr مورد استفاده قرار گرفته است. در این حالت نیز به %5/6 بهبودی نسبت به مدل مبنا رسیدیم. در ادامه به جهت بررسی کارایی این روش در امر تطبیق، از چندین روش مختلف برای انتخاب hmm ها استفاده شده است. در بخش دیگری از کار به منظور مقایسه کارایی hmm و gmm در روش استفاده شده جهت امر خوشه بندی در این پروژه، به جای hmm های بکار رفته در مرحله پیش از خوشه بندی، از gmm استفاده شده است و نتایج بدست آمده مورد بررسی قرار گرفته است. تمامی آزمایش های انجام شده در این پروژه بر روی دادگان tidigits صورت گرفته و هیچگونه همپوشانی ای بین گوینده های آموزش و تست وجود ندارد. در انتها نتایج حاصل از تطبیق گوینده به روش eigenvoice و eigenvoice مقاوم آورده شده است که متأسفانه نسبت به مدل مبنا عملکرد ضعیفتری دارند.
منابع مشابه
رتبهبندی واجهای گفتار فارسی از نظر کارآیی در بازشناسی گوینده
در این مقاله، کارآیی واجهای گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآییها، رتبهبندی واجها صورت گرفتهاند. جهت برآورد کارآیی واجها، از یک معیاری که بهصورت نسب « فاصلة بینگویندهای» واجها به « فاصلة در گویندهای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیدهایم، استفاده شده است. آزمایشها و محاسبات لازم برای کلیه واجهای گفتار...
متن کاملتطبیق گوینده در بازشناسی گفتار پیوسته براساس تخمین map مبتنی بر تبدیل mllr
روشهای مختلفی برای تطبیق گوینده در سیستمهای بازشناسی گفتار معرفی گردیده اند. در برخی روشها نظیر تخمین map تنها مدلهایی که داده آموزشی متناظرشان موجود باشد تازه سازی می شوند و برای بهبود قابل توجه دقت بازشناسی، داده آموزشی نسبتاً زیادی مورد نیاز است. در برخی دیگر نظیر mllr که تعدادی تبدیلات عمومی بر روی خوشه های مدلها اعمال می شود، برای دادگان کم آموزشی نتایج مطلوبی حاصل می شود، اما با افزایش داد...
متن کاملجایگاه گوینده در اعتبار گفتار از دیدگاه احادیث
There are various traditions emphasizing the distinction between the person who speaks and his speech. This shows the importance of understanding and evaluating a speech by itself without considering the speaker. But there are other traditions that emphasize thorough knowledge of speakers so as not to accept everyone's speech. There is an attempt here to study and survey these two groups of tra...
متن کاملبهبود سرعت شناسایی گوینده در سیستم های با تعداد گوینده بالا با استفاده از خوشه بندی سلسله مراتبی
شناسایی هویت مطمئن یک اصل اساسی برای شروع یک تراکنش تجاری می باشد. استفاده از بیومتریک ها می تواند باعث بالارفتن امنیت، سرعت و سادگی سیستم های شناسایی هویت شود. صدا به عنوان یک بیومتریک با دقت نسبتا بالا، سادگی استفاده و پیاده سازی بالا، هزینه کم و پذیرش بالای کاربر، یک گزینه مناسب برای این منظور می باشد که تا کنون به شکل گسترده ای مورد استفاده قرار گرفته است. یکی از مشکلات سیستم های شناسایی گو...
15 صفحه اولمقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای جمع شونده و نویز کانال
با توجه به اهمیت و نقش بالای مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای محیطی، در این مجموعه ابتدا تأثیر استفاده از پیک های طیف دنباله خودهمبستگی به عنوان ویژگی های مقاوم برای استفاده در سیستم های بازشناسی گوینده مورد بررسی قرار گرفته است. سپس تأثیر روش های هنجارسازی ویژگی ها مانند روش حذف میانگین کپسترال، روش پس پردازش mva و روش ویژگی های مفقود بر پیک های طیف دنباله خودهمبست...
15 صفحه اولتشخیص حالت احساسی از سیگنال گفتار در حالت مستقل از گوینده با استفاده از آنتروپی بسته موجک
در این مقاله آنتروپی بسته موجک برای بازشناسی احساسات از گفتار در حالت مستقل از گوینده پیشنهاد شده است. پس از پیشپردازش، بسته موجکِ db3 سطح 4 در هر فریم محاسبه شده است و آنتروپی شانون در گرههای آن به عنوان ویژگی در نظر گرفته شده است. ضمناً ویژگیهای نواییِ گفتار شامل فرکانس چهار فرمنت اول، جیتر یا دامنه تغییرات فرکانس گام و شیمر یا دامنه تغییرات انرژی به عنوان ویژگیهای پرکاربرد در حوزه تشخیص احس...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023